深度强化学习者经常面临有效协调感知和决策共同体的挑战,尤其是在具有高度感官输入的环境中,特征相关性各不相同。这项工作介绍了Sprig(使用内部游戏动力学的Spackelberg感知 - 预定学习学习),该框架将内部的感知互动建模为合作的Stackelberg游戏。在Sprig中,感知模块充当领导者,战略性地处理原始感觉状态,而策略模块则遵循,根据提取的功能做出决策。Sprig通过修改后的Bellman运营商提供了理由保证,同时保留了现代政策优化的好处。对Atari Beamrider环境的实验结果,通过其游戏理论提取和决策制定的游戏理论,获得了Sprig的有效性,比标准PPO提高了30%的回报。
主要关键词
![arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第1页](/bimg/f/f428d5557d82829d1814e0a5d63044ea577f4e83.webp)
![arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第2页](/bimg/a/a6f1e831489d754375efe9b33b77cf9f31f2e221.webp)
![arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第3页](/bimg/f/f75c6eecf466f0aac3e80ab5c9ca12a3c076397e.webp)
![arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第4页](/bimg/d/df97951e567b2d87841adec2789246051e4bc2ec.webp)
![arxiv:2502.14264v1 [cs.ai] 2025年2月20日PDF文件第5页](/bimg/4/4b421cec72065e368ae1517c44062113bcfdb827.webp)
